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ТНЕ СОЗТОМЕВ 5ЕХТІМЕХТ АХАГТ.У5І5 МЕТНОРр КЕКОМ 
МАТОВА, ГАХССАСЕ ТЕХТ5 


Стаття присвячена методу аналізу текстів природною мовою, що містять відгуки клієнтів. Метод від- 
різняється від існуючих комбінацією різних типів векторизатора та уведенням ієрархії компонентів. Послі- 
довність застосування різних векторизаторів дає змогу будувати ієрархію ознак та маркерів. Використання 
методу опорних векторів та острівної кластеризації з подальшим навчання моделі для прогнозування почут- 
тів є одним із кращих методів аналізу настроїв, як для небінарних, так і для бінарних аспектів. На основі від- 
критого набору даних з допомогою Руйоп та Табіай побудовано програмний продукт для аналізу вподобань 
клієнтів і візуалізації результатів аналізів. 
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Тре агіісіе 15 деуоіва (о Ше теоа ої апаїузія ої іехів іп Ше паига! Іапбцаєе, сопіаїпіпе геуіемує ої сПепіз. 
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сотропепі Біегагспу. ТПе зедцепсіпе ої ре иц5е ої дїНегепі уесіогі7ег5 аПом/8 ця (о Бий а Біегагспу ої Геаїшге5 
апа тагКег5. О5іпє Ше геїегепсе уесіог58 апа і5Іапа сіцякегіпо, іесрпідцез, утїіїв Бе зиб5еадшепі ігаїпіпе ої а піодеі 
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апд уізцаїйе Бе гезціїв ої апаїугез. 

Кеуууогдз: зепітепі апайзуз, уесіогігег, (ехі їп пагига! Іапбцаєе, сІизіегіпо, 


Вступ 

Аналіз настроїв (сентимент-аналіз, 
Зепийтепі Апаїузі5) допомагає розпізнати 
враження клієнта від компанії, товарів чи 
послуг. Особливо аналіз настроїв поши- 
рений у соціальних мережах, 1 саме з їх 
появою відгуки клієнтів стали аналізува- 
тися в автоматичному режимі. Емоції клі- 
єнта, в основному, впливають на форму- 
вання маркетингової стратегії (1). 

Оскільки аналіз настроїв належить 
до методів машинного навчання без вчи- 
теля, то єдиного результату аналізу не- 
можливо досягнути. Різноманітність ре- 
зультатів аналізу є засобом прийняття рі- 
шення про покращення характеристик 
продукту, підвищення обсягів продажів 
тощо. 

Метою статті є використання алго- 
ритмів МІР (обробки природної мови, 
Машге ІГапецаєе Ргосез55іпя) для аналізу 
настроїв клієнтів. Для цього використано 
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відкритий набір даних У/опеп Е-сотегсе 

СПозбіпе Кеуіем/5 

(поря // му Кає8Їе.сот/пісарогао/ууотеп 

5-есопітегсе-сіоШФіпе-геміемує) з більше 

ніж 23000 дописами, мову програмування 

Руфоп та Табіеай. 

Постановка проблеми 
Маємо множину документів з наст- 

роями клієнтів Ю): кожен документ 4 

поданий п'ятіркою Хеї. аї, 00їїкі, Як, П?. 

Ставимо перед собою завдання: 

1) Знайти усі документи з Р, у яких є 
згадка про сутність е,. Сутність є про- 
дуктом, послугою, особою, подією, 
організацією тощо і може бути задана 
як (Т, У//), де Т - ієрархія компонентів 
(або частин), субкомпонентів, а Й -- 
набір атрибутів е. Кожен компонент 
або підкомпонент також має свій 
власний набір атрибутів; 

2) Знайти аспекти аї В е; 1 сформувати 
кластери. 
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3) Видобути ці шматки інформації з тек- 
сту  (неструктурованих даних) та 
сформувати базу даних із зазначенням 
власника Й документа «; та часу його 
формування /;; 

4) Для кожного аспекти а; визначити то- 
нальність, тобто, чи належить він до 
позитивного, негативного чи нейт- 
рального (00)їкі); 

5) Сформувати усі кортежі Хе). аї, 00)їкь 
Ль, п» та класифікувати документ а. 

Отже, аналіз настроїв поєднує як 
методи машинного навчання без вчителя 
(кластеризація, класифікація), так і мето- 
ди машинного навчання із вчителем 
(класифікація). 

Аналіз останніх досліджень |і 
публікацій 

Формальна постановка задачі аналі- 
зу настроїв подано у |2|. Автори пропону- 
ють використовувати 5УМ (Зиррогі Уесіог 
Масрфріпе) для кластеризації, але поперед- 
ньо не здійснюють обробку тексту (токе- 
нізація, забирання стоп-слів), що унемож- 
ливлює використання пропонованого ме- 
тоду для української мови зокрема. 

У |3| існуючі підходи класифікації 
настроїв поділено на такі класи: 

е. підходи, що базуються на правилах; 

е. підходи, що базуються на словниках 
(тональні словники); 

е частотні методи; 

е. навчання без вчителя. 

Підходи, базовані на правилах, дають 
змогу опрацьовувати тексти лише певної 
вузької області, а також автоматичне по- 
повнення правил здійснюється лише на ос- 
нові функціональних залежностей. 

Тональні словники визначають набір 
правил, що визначають настрій (тональ- 
ність) тексту. Потребують розміченості 
текстів. 

Частотні методи зазвичай працюють 
разом з мірою ТЕ-ІОЕ і використовують 
підхід «мішка слів», що не дає змоги вра- 
ховувати зворотного значення слів (на- 
приклад, «веселий» у розумінні сумний). 

Пошук настрою тексту з викорис- 
танням методів навчання без вчителя по- 
требує їх комбінації та інколи пояснення 
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результату експертом. Проте вони є най- 
поширенішими, оскільки дозволяють мі- 
німізувати недоліки попередньо поданих 
підходів. 

У роботі |4| автором пропонується 
метод отримання сигнатур документа, Які 
будуються на основі певного набору ста- 
тистичних параметрів документа, обра- 
них з міркувань стійкості до певних форм 
змін документа. Наприклад, приблизну 
кількість речень у документі можна виз- 
начити за кількістю великих літер, ком 1 
крапок; загальна довжина тексту в симво- 
лах за винятком пробілів і стоп-слів дає 
загальну оцінку обсягу документа тощо. 

Автором методу проводилися до- 
слідження можливості використання різ- 
номанітних параметрів текстів для опосе- 
редкованого виявлення дублювань |5Ї. 
Так, було підраховано кількість входжень 
у текст документа кожного символу з на- 
ступного набору:.,- :;12 ()ісимвол 
пробілу. Образ документа подається у ви- 
гляді вектора розмірністю 1 І елементів, і- 
тим компонентами якого була кількість 
входжень відповідного символу. В іншо- 
му тесті з документа видалялися буквено- 
цифрові символи, залишаючи спецсимво- 
ли, пробіли й переведення рядків. 

Мета дослідження 

Метою дослідження є розроблення 
методу аналізу відгуку клієнта шляхом 
комбінування різних типів векторизаторів, 
а також реалізація запропонованого мето- 
ду. Це дасть змогу будувати цілісну марке- 
тингову систему, яка починається від ви- 
ставлення рейтингу за коментарем, яка фі- 
налізує результати і «будує» стратегії. 

Виклад основного матеріалу 

Опис методу 

Аналіз відгуків клієнта можна роз- 
бити на такі етапи: обробка тексту; побу- 
дова моделі; аналіз результатів. 

І. Обробка тексту 

Текст повинен бути попередньо об- 
роблений для побудови моделі. Це покра- 
щить точність оцінки відгуку. Розглянемо 
кілька методів обробки: 

Токенізація означає розбиття тексту 
на мінімально значущі одиниці. Це 
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обов'язковий етап перед будь-яким видом 
обробки. Базовий іоКепігег (за аналогією 
до МІЛК) розділить текст на аспекти, які 
використовуються в подальшому для 
сентимент-аналізу. 

Приклади  токенізованого тексту 
різними токенізаторами: 

Токенізатор Іосийоп: ТПе тоигзе зауе 
ир. (| -? Те/тоизе/оауе ир. 

Токенізатор | апаїсат:  /  уди 
угаппаре ту Іоуег шо» 
іуоцугапіло/бе/туЛПоует/... 

Стемінг - це процес скорочення 
слова до основи шляхом відкидання до- 
поміжних частин, таких як закінчення чи 
суфікс. Результати стемінгу іноді дуже 
схожі на визначення кореня слова, але 
його алгоритми базуються на інших 
принципах. Тому слово після обробки ал- 
горитмом стемінгу (стематизації) може 
відрізнятися від морфологічного кореня 
слова. Стемінг застосовується в лінгвіс- 
тичній морфології та в інформаційному 
пошуку 

Стоп-слова (5(орухогдз). База даних 
стоп-слів дає змогу видалити короткі сло- 
ва, які істотно не впливають на семантику 
тексту, наприклад, сполучники. 

Проаналізуємо кілька етапів оброб- 
ки даних: для цього візьмемо один відгук 
і перевіримо його, як він зміниться після 


чистки: 

«Хев8, Еріз8 із а агеаєг агез5! 1 
мавп виге ароці іє опііїпе 
ресайзе ої РБе соїог сопріпабіоп. 
і Кпіпк 1 моцід Бамуе ргеїеггед РП 

счгау соїог рив 11 маз зо1д оці. ії 
гесеіуед уегу доой геуіемз опіїпе 
зо і Ероцдірі 15 маз могіЮ їБе гізкК 
аг Рре заїе ргісе. і ат аїмаує оп 
спе бБипо Гог дацгеаг  агез55зе5 аб 


сагеаї ргісе5 (миро ізп'є?!). опсе і 
гхесеіуед 18 апа їхківед ії оп, ог 
мом! 1 о0уе ії. 15 15 80 
ГТаккегіпа. ії із а уегу ргеббу 
дгевз8. і Нпіпк і мії1 меаг біз 
а11  ЄСбе  біпе. 1 ат о асірцаїіу 


рріпкіпд ої а11 сбе а» 

Перший єтап очищення тексту 
включає перетворення до нижнього ре- 
гістру, видалення стоп-слів 1 стемінг. Код 
програми поданий нижче: 


аеї сіеапіпд Типсіїоп(івхі): 
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ївхі « Їехігап5іаїе(8ігіпд.рипсійаноп) 


ївхі « Їехі Лом/ег() 
їехі - їехі.5рій() 


віорз - 8еї(5іормогав ммогаз("епдіїяп")) 
ївхі з |ми Бог м іп ївхі ії пої м/ іп 5їор8 апа 
Іеп(м/) »- 3| 


їехі - " "|оіп(вхі) 


їехі - їехі.5рій() 

8ївттег « Зпом/раїЗіеттег(епадїївп') 

взіветтеа умогая - |5їепттег.вїеп(мога) Їог 
миога іп їехії 

їехі - ""|оіп(вівттедй м/огав) 

геїигп їехі 


Отримаємо: 
уез, агеаї дагез55! зиге опіїп соїіог 
сопріпабіоп.  "піпк моцпій ргеїЇег 


счгау соїог зо1д об. кгхесеїу до0а 
геуїем опіїіп Боді могіп гізкКк 
заїе ргісе. аїчмау Бипі дгеаї дгез5 


сагеаг ргісе (иро і5п'є?2!). хесеїу 
ргі оп, мол! Їоме ії. їТабікегіпд. 
ргерісі адахгез5.  "піпк меаг  біпе. 


аскциаї ЕКріпКк 


Наступним кроком є використання 
регулярних виразів. З їх допомогою та 
бібліотеки ми розділяємо та видаляємо 
найпоширеніші фрази: 


аеї сівапіпд Кипсіїоп(івхі): 
ївхі « Їехігапбіаїе(вігіпд.рипсійаноп) 


ївхі « Їехі ом/ег() 
їехі - їехі.5рій() 


віорз - 8еї(5іормогав ммогаз("епдіїяп")) 
ївхі з |ми бог м іп ївхі ії пої м/ іп 5їор5 апа 
Іеп(м/) »- 3| 


( 
( 
( 
( 
| 
ївхі з ге.5иб(п'пї", " пої ", ївхі) 
їехі з ге.5иЮ("ІЇ", " мії ", їехі) 
( 
( 
( 
( 
( 
( 
( 


їехі - " ".|оіп(ехі) 
ївхі - ге.зиб(г"е - таїї", "етаїї", їехі) 
ївхі з ге.5ир(Г"|ЛА-Да-20-91,1.М/ч--аЇ", " ", їехі) 
ївхі з ге.зиб(г"мпаї'я", "ма! із ", їехі) 
ївхі - ге.зиб(г""8", "", ївхі) 
ївхі - ге.зиб(г"Чув", " Баме ", ївхі) 
г 
г 


їехі «с гевиб("ед","ед", Ївхі) 
ївхі - гевиб(" р д","бд", ївхі) 
їехі з ге.8иб(г"ї'пи", "ї апп", ївхі) 
ївхі з ге.5иї(г" и 58 ", " атегісап ", івхі) 
їехі - ге.зир(|Ла-г2А-7Т, "/, ївхі) 
ївхі - ге.зиб(г""те", " аге ", їехі) 
ївхі з ге.5ир(П"П"а", " миоціа ", ївхі) 


геїигп їехі 
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Отримаємо: 

уез дгеаї дгез5 зиге опіїпе соїіог 
сопріпабіоп Епіпк моціа ргеїеггей 
чгау соїог з8о01д оцпі хесеіуед дооа 
геуїемеє опіїпе Рроцдрір могії кгізкКк 
заїе ргісе аїчаув пипі счгеаї 
дагеззез дцхгеаї ргісез мпо 15 пої 
гесеїіусда ігісед оп мом іІомуе 16 
ГТагссегіпд ргекрісу дагезз5 РріпК меаг 
сіте асрициаїіїу СБіпкіпд 


Векторизація. Слова повинні бути 
закодовані як цілі числа або значення з 
плаваючою точкою для використання як 
вхідні дані для алгоритму машинного 
навчання, що називається вилученням о03- 
нак. Автори статті |6| описують побудову 
моделі векторного простору для завдання 
векторизації слів. Автори поєднали пере- 
ваги двох підходів: локального контексту 
вікна і метод глобальної факторизації 
матриць. За результатами порівняння іс- 
нуючих моделей, отримана авторами мо- 
дель Сіоуе показує непогані результати 
як у задачі пошуку схожих слів, так і в 
завданні Матед Епійку КВесоєпійоп. 

Вая-оРУ/огаз Моаеі. Як вже було 
згадано вище, неможливо працювати з 
текстом безпосередньо при використанні 
алгоритмів машинного навчання. Отже, 
нам необхідно перетворити текст на чис- 
ла. Одним із простих і ефективних спосо- 
бів є модель «мішок слів» або Во. Мо- 
дель проста в тому, що вона відкидає всю 
інформацію про порядок слів 1 зосеред- 
жується на входженні слів у документі. 
Це можна зробити, присвоївши кожному 
слову унікальний номер. Тоді будь-який 
документ, який ми бачимо, може бути за- 
кодований як вектор фіксованої довжини 
з довжиною словника відомих слів. Зна- 
чення в кожній позиції у векторі може бу- 
ти заповнене підрахунком або частотою 
кожного слова в закодованому документі. 

Існує багато способів розширити 
цей простий метод, як краще уточнити, 
що таке слово, так і визначити, що коду- 
вати кожне слово у векторі. 

Бібліотека ясікі(-Іеагп забезпечує 3 
різні схеми, які ми можемо використову- 
вати:  СоцпіУесіогігег,  ТПаМУестогі?ег, 
Назріпє Уесіогі7ег. 

СоиппіУесіогітег надає простий спо- 
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сіб як виділити текстові документи, так і 

створити словник відомих слів, а також 

кодувати нові документи, використовую- 
чи цей словник. 

Алгоритм СоипіУесіогі7ег: 

1) Створити екземпляр класу Соипі- 
Уесіогі7ег. 

2) За допомогою функції с () сформу- 
вати словник з одного або більше 
документів. 

3) Викликати функцію ітап5їогт () на од- 
ному або декількох документах, необ- 
хідних для 0 кодування кожного 
вектора. 

4) Кодований вектор повертається з дов- 
жиною всього словника і цілим чис- 
лом для кількості разів кожного слова 
в документі. 

Важливо, що той самий векториза- 
тор може бути використаний на докумен- 
тах, які містять слова, не включені до 
словника. Ці слова ігноруються, і в отри- 
маному векторі не наводиться кількість. 


Х.арріу(сіеапіпд ипсіїоп) 
с уес - СоипіМесіогігег() 
с мес.Ї(Х) 

Х ас увсігапеїогт(Х) 


Х РргкапзГохтей: 

(0, 583) 

(0, 951) 
(0, 2846) 
(0, 10884) 
(0 
(0 


веною 


12133) 
г. 13913) 1 


ТЕ-ІОЕ уесіогітег. Підрахунок слів 
може бути використаний для підготовки 
текстів до аналізу, але має ряд недоліків. 
Наприклад, «Ше» з'явиться багато разів, 1 
їх великі значення не будуть значущими 
в кодованих векторах. 

Альтернативою є розрахунок частот 
слів, 1 найбільш популярним методом на- 
зивається ТЕ-ПОЕ. Це - абревіатура, що 
означає «частота термінів - зворотний 
документ», яка є складовими результую- 
чих балів, присвоєних кожному слову. 
Частота термінів: підсумовує, як часто 
дане слово з'являється в документі. Зво- 
ротна частота документа зменшує масш- 
таби слів, яких багато з'являється в 
документах. 
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Отже, ТЕ-ШЕ - це показники часто- 
ти слів, які намагаються виділити слова, 
які є більш цікавими, наприклад, частими 
документами, але не всіма документами. 

ТЕ-ІОКуесіогігег шукає обернені 
коефіцієнти частоти документів і кодує 
нові документи. Крім того, якщо попе- 
редньо використати СоипіУесіогігег, то 
його можна використовувати З 
ТваїТгапяїогтег для обчислення оберне- 
них частот документа і початку кодуван- 
ня документів. Процес створення, налаш- 
тування та перетворення використовуєть- 
ся як з СоцпіУесіогі?ег. 


Х - сіоїпе5 сівеапеаїВемівм Техі 
Х.арріу(сіеапіпд їипсіїоп) 

її мес « ТНаїУесіогігег) 

їй уес ЙКХ) 

Х «її уес.ігапвіотті(Х) 


Х ргапзїогтеа: 


(0, 13913) 0.4650015062801364 
(0, 11133) 0.5376963415994225 
(0, 10884) 0.4929199056155513 
(0, 2846) 0.2636953393304713 
(0, 951) 0.1991097263821536 
(0, 583) 0.3775000594849874 


Наз5ріпє  уесіогігег. Підрахунок 
кількості слів і частота, які є основою по- 
передньо поданих векторизаторів, мо- 
жуть бути дуже корисними, але одним з 
обмежень цих методів є те, що словник 
може стати дуже великим. Це, у свою 
чергу, вимагатиме великих векторів для 
кодування документів і нав'язуватиме ве- 
ликі вимоги до пам'яті і уповільнюватиме 
алгоритми. 

Покращення полягає в тому, щоб 
скористатися способом хешування слів 
для перетворення їх у цілі числа. Перева- 
га полягає в тому, що не потрібно форму- 
вати словник, а також можна вибрати 
вектор довільної фіксованої довжини. Не- 
доліком є те, що хеш є односторонньою 
функцією, тому не існує способу перетво- 
рити кодування назад до слова (яке може 
не мати значення для багатьох контро- 
льованих завдань навчання). 

На5ріпє У есіогігег реалізує цей під- 
хід 1 може бути використаний також для 
послідовних хеш-слів з таким маркуван- 
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ням та кодуванням документа. 


Х - сіоїпез сіеапеаїВемівм Техі 
Х.арріу(сіеапіпд їипсіїоп) 

п мес - НазпіпдМесіогігег(пугат, гапде-(Т, 5)) 
п мес. Х) 

Ха Пп уес.ігапаїонті(Х) 


Х ргапзГогтеай: 


(0, 88313) 0.19245008972987526 
(0, 131881) 0.19245008972987526 
(0, 154635) 0.19245008972987526 
(0, 167035) 0.19245008972987526 
(0, 180525) -0.3849001794597505 
(0, 203648) 0.19245008972987526 
(0, 216626) 0.19245008972987526 
(0, 230285) 0.19245008972987526 
(0, 291052) 0.19245008972987526 
(0, 299433) 0.19245008972987526 
(0, 321990) 0.19245008972987526 
(0, 332294) - 
0.19245008972987526 
(0, 475715) 0.19245008972987526 
(0, 616655) 0.19245008972987526 
(0, 681602) - 
0.19245008972987526 
(0, 697710) 0.19245008972987526 
(0, 722887) 0.19245008972987526 


(0, 724616) - 
0.19245008972987526 
(0, 726496) - 
0.19245008972987526 
(0, 731228) 0.19245008972987526 


(0, 750171) - 
0.19245008972987526 
(0, 822631) - 
0.19245008972987526 
(0, 909483) - 


0.19245008972987526 
(0, 1017511) - 
0.19245008972987526 


Коли ми обробили дані, ми можемо 
приступати до самої моделі методом ос- 
трівної кластеризації. 

Основним методом острівної клас- 
теризації є метод, який базується на вико- 
ристанні графа сумісної зустрічальності 
термів. Цей граф будується на основі виз- 
начення кореляції кожної пари термів, з 
яких складаються тексти, і кластеризуєть- 
ся саме цей граф (або його частина) опи- 
саним у методі підходом. Таким чином, 
терми документів групуються в кластери 
саме на основі спільної зустрічальності. 
Також, завдяки цьому даний метод є стій- 


О Н.Б. Шаховська, Х.Р. Шаховська 


155 1561-5359. Штучний інтелект, 2018, Мо З 


ким до проблем синонімії та омонімії - 

терми з різним значенням з великою ймо- 

вірністю потраплять у різні кластери тер- 

мів, оскільки вони будуть зустрічатись у 

текстах спільно з різними термами. У па- 

рі до цього для вирішення омонімії мож- 
на використовувати словники. 

Вже для групування текстів у клас- 
тери на основі кластерів термів викорис- 
товуються спеціальні процедури, що та- 
кож описані цим методом. 

Таким чином, метод острівної клас- 
теризації текстових датасетів складається 
з наступних кроків: 

1) Попереднє оброблення текстів з вхід- 
ної колекції документів: видалення 
стоп-слів, лематизація тощо. 

2) Виділення з текстів множини термів, з 
яких вони складаються. 

3) За необхідності - фільтрація отрима- 
ної множини термів (наприклад, у си- 
туаціях, коли відомі початкові цент- 
роїди кластерів або отримана множи- 
на є занадто великою). 

4) Побудова графу кореляції термів між 
собою. 

5) Попереднє оброблення графа і отри- 
мання його наближення. 

6) Кластеризація отриманого наближен- 
ня графа. 

7) Розбиття документів на кластери на 
основі отриманих кластерів термів. 

Як правило, цей метод дає кластери, 
що легко інтерпретувати саме на основі 
змісту документів, що складають ці 
кластери. 

Розбиття документів на кластери 
здійснено методом опорних векторів з лі- 
нійним розділенням по гіперплощинах на 
основі поліноміального ядра 


КС ж") (С х") -нсопаг)" | Вибір саме 


цього методу кластеризації зумовлений 
наявністю попередніх кроків з оброблен- 
ня текстів та подання їх у векторній та 
графовій формах. 
Послідовність кроків: 
1) Перетворимо рейтинг за п'яти-баль- 
ною шкалою до бінарного вигляду, де 
1-3 це0,а4-5- 1. 
2) Використаємо наведену вище обробку 
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даних, а саме: сіеапіпє Гипсйоп 1 
Назріпє уесіогі7ег. 
3) Розділимо дані на тренувальну 1 тес- 
тувальну частини як 2 до І. 
4) Натренуємо лінійну 5УМ. 
У результаті виконання цих кроків 


ми отримали точність моделі (ассигасу) 
0.8829677609303695. 


Далі візьмемо позитивний і негатив- 
ний відгук 1 перевіримо, як оцінить його 
модель: 


гоуе РБіз аге55!  ії'з8 з000 
ргерсу. і Баррепед го їіпа ії іп 
а 85коге, апа і'т діад і аза рес і 
пеуег моцій рБауе огдегед ії опііїпе 
рс іб'8 регіге. і роцапі а ребіге 
апд ат 5'8". і іоуе СБе ІіепдбЮр оп 
те- Бігз зцзр а 11ї51е реїом РБе 
кпее. тмоціа девіпікеїу ре а Ргие 
тіді оп зоптеопе мро 15 Егиїу 
регіге. 


ргіпі(8мс.ргеадїсі(робійме геміему ігап5їогттед)|0| 


) 


з 1 


ргіпі(8ус.ргеаїс(педайме геміему їгап5їогтеа)| 


01) 


»» 0 

Аналіз результатів 

У першу чергу, проаналізуємо вміст 
датасету «М У/отеп Е-сотегсе Сіо5біп8, 
Кеміем/8». 

Структура датасету: 

Софіпє ПП): Гіеєег - категорична 
змінна, що належить до конкретної час- 
тини, що розглядається. 

Аяе: Робійуе - ціла змінна віку 
рецензентів. 

ТіЧе: змінна рядка для назви допису. 

Кеуїєм/ кехі: змінна рядка для тіла 
допису. 

Кацпє: позитивна цілочисельна змін- 
на для продуктової оцінки, наданої клієн- 
том від 1 - Найгірше до 5 - Найкраще. 

Кесопітепдесд ПХД: Двійкова змін- 
на, де клієнт рекомендує продукт, де І 
рекомендується, 0 не рекомендується. 

Розійуе Ееефраск Соипі: позитивне 
ціле число, яке визначає кількість інших 
клієнтів, які з вважають цей огляд 
позитивним. 
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Пімізіоп пате: категорійна змінна, 
найменування продукту високого рівня 
поділу. 

Дерагитепі пате: категоріальна наз- 
ва, назва відділу продукту. 

Сіа85 пате: категорійна змінна, наз- 
ви класу продукту. 
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Здійснимо бізнес-аналіз для 
Сизотег 5епійтепі апаЇу5і5. Розглянемо 
зараз кілька варіантів аналізу у Табіеай. 
Можна аналізувати рівень якості прода- 
жів залежно від відділення, відповідно 
можна робити висновки щодо стратегії 
покращення виробництва та продажу 
товару. 


Рис. 1. Залежність рейтингу від кількості позитивних відгуків 


Більше того, Табіеай дозволяє роби- 
ти анімовані звіти, що дозволяє дивитися 
інфографіку залежно від параметру. Для 
прикладу, аналізуватимемо вік клієнта та 
вплив цього фактору на кількість залише- 


них позитивних та негативних відгуків. 
Результати аналізу відгуків подано на 
рис. 2. 


Рис. 2. Приклади аналізу відгуків клієнтів залежно від віку 
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У цьому випадку (рис. 2) можна 
спостерігати цікаву тенденцію:  най- 
більша активність спостерігається у се- 
редньому віці, хоча на перший погляд 
здавалося, що молодь мала б бути більш 
активна у формуванні як позитивних, так 
і негативних відгуків. 

Висновки 

У статті розроблено метод аналізу 
дописів про вподобання клієнтів та роз- 
роблено алгоритм на його основі, що дає 
змогу здійснювати маркетингове дослід- 
ження ринку, а також стати основою для 
здійснення прогнозів продажів на наступ- 
ні періоди. Особливістю розробленого 
методу є послідовна комбінація різних 
методів векторизації текстів, що дає змо- 
гу зберегти семантику тексту та відшука- 
ти значущі ознаки у ньому. Окрім того, 
послідовність застосування різних векто- 
ризаторів дає змогу будувати ієрархію 0з- 
нак та маркерів. 
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КЕ5ОМЕ 


М. 5БаКроузкКа, КП. 5раКПоузка 

Тре си5іотег 5епіітепі апаїузі5 
теод їгот паїига! Іапеиаєе Техі5 

Тре агисіє рге5епі5 Ше тео Їог 
си5іотег ргеїегепсе5 апаЇїугіпє ап Феуе- 
Іор5 ап аїєогійрт Баз5еа оп 18, мупіср епабіе5 
го сопдцсі пагКеї гезеагсі ої ре плагКеї, а5 
ууеП а5 Бесоте Фе Ба5і5 їог саггуїпе оці 
5аїе5 Тогеса5і5 Їог 5зиб5едцепі регіодз. ТПе 
ресиПагісу ої Ше демеїоред тео 15 Ше 
соп5і5гепі согабіпайоп ої аїНегепі пеФойя 
ої їехі уесіогігайоп, мПпісп аПом/5 уби 0 
Кеер Ше 5етапіс5 ої Ше (ех( апа па 
теапіпеїиі 5ієп5 іп її. Ш адашоп, Фе 
зедиепсіпя ої Ше и5е ої дїНегепі уесіог5 
аПом5 уои (о Бий а Біегагспу ої 5ісп5 апа 
тагКег5. 

Ваз5ед оп ореп Чака 5еї улії Руфоп 
апа Табіай, а 50Йомаге ргодисі маз демеїор- 
ред іо апаїуге сиз(отег ргеїегепсе5 апа 
уізцай7е Ше гезиіїв ої апаіугез. ТПе ицз5е ої 
Бош (0015 апа Фе деуеїоред пейод аПом5 
Гог іп-дерії апаЇіузіз ої пагига| Іапецаєє 
гехі5 апа геуеаїз ріддеп ага дерепадепсіез, 
зисп а5 Фе агєе ої Ше сПпепі апа Фе паїшге 
ої рі8 розі. 

Вийдед доситепі уесіог5 аге уегу 
цз5еГи!, бесайзе Ше 5епітепі ої а 5епіепсе 
сап Бе дедисеа уегу ргесієеіу Їїтот ШПезе 5е- 
паапіїс Їеашгез. Аз5 а плайег ої Гасі, ипзег5 
уугійпє геміем/5 ул розійуе ог пебайує 
зепйтепіз у/і! Пауе согпрієїсіу 4іНегепі 
хуауз ої соппробіпє Ше у/огд8. Беедіпе а 
Зиррогі уесіог пзасріпе апа і5іапа сІизіе- 
гіпє мій Фе5е уесіог5 апа (гаїпіпя, Ше то- 
деі (о ргедісі 5епйитепі 15 Кпомп (о Бе опе 
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ої Фе Бе5і плеФод5я Їог 5епійтепі апаЇузія, 
оф їог Нпе-єгаштед (Мегу пебайує / 
Мерацує / Мецшіга! / Розійуе / Мегу розійуе) 
апа Їог піоге бепега| Меєайуе / Робійуе 
сіазвійсацоп. 

Тре паїп теоа ої і5іапа сІивіегіпе 
15 а тефФоа Шаї 15 Ба5ед оп Ше ц5е ої Фе 
єгарп ої Фе сопегепі оссиштепсе ОЇ (егтз. 
Тріз єгарі 15 базед оп Фе дейпійоп ої Фе 
согте|айоп ої еасП раїг ої (егтз гот м ріс 
іехі5 аге сотро5ед, апа їс 15 сІцзкегед 
ехасйу Фіз єгарб (ог рагі ої 10) де5сгібед їп 
Фе тео арргоасі. ТРи58, Ше (егт5 ОЇ 
доситепіз аге єгопред іпіо сій5егя оп Ше 
Ба5і85 ої а сопатоп оссштепсе. АЇ50, дие іо 
ФФі8, Фіз піефоа 15 гезі5гапі (о Ше ргобіетя 
ої зупопуту апа ротопуту - (егпа5 мії 
ФїНегепі теапіпе5 аге уегу ПКе!у (о Тай їпіо 
ФїНегепі сІиз(ег5 ої іегт5, а5 ШФеу у Бе 
епсоппіегед їп (ехі5 іп сопіуипсйоп ул 
дїНегепі (егпт5. ГП а раїг (о (і58, ог Фе 
50їшйоп ої попопуту 10 15 роз5ібіе 0 ц5е 
дііспопагіе5з. 

АЇгеаду Їог Фе єгоипріпя ої (ехі5 іо 
сТизіег8, Базед оп сІизіег (егтз, 5ресіа! рго- 
седигез аге цзед, у/рбісі аге аї5о дезсгібед 
Бу Фіз тефоа. 


Надійшла до редакції 15.10.2018 
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